. Verifica di ipotesi: parte seconda.. Verifica di ipotesi per due campioni. Quando abbiamo due insiemi di dati possiamo chiederci, a seconda della loro natura, se i campioni sono simili oppure no. Ci due casi principali che possono presentarsi. Il primo caso riguarda le proporzioni. Se abbiamo un campione di ampiezza n su cui abbiamo rilevato una proporzione di successi ˆp = x /n ed un campione di ampiezza n con la rispettiva proporzione ˆp = x /n possiamo chiederci se l eventuale differenza riscontrare tra ˆp e ˆp sia dovuta al caso oppure no. Si pensi ad esempio a due gruppi di pazienti sottoposti ad un farmaco sperimentale o ad un placebo ˆp i rappresenta la proporzione di guarigioni nel gruppo i di pazienti. L ipotesi nulla da sottoporre a test è H 0 : p = p contro un alternativa che può essere H : p p per un test a due code, oppure un alternativa del tipo H : p > p o H : p < p. La statistica test viene costruita come segue: si pone ˆp = x +x n +n, cioè si calcola la proporzione totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp ˆp z = ( ) ˆp( ˆp) n + n La statistica z così costruita si distribuisce come una variabile Gaussiana standard e quindi si può procedere come con un qualsiasi test z.
Test per il confronto tra proporzioni Se ˆp = x /n e ˆp = x /n sono le proporzioni di successo su due campioni di ampiezza n ed n rispettivamente, si può costruire un test z per testare l ipotesi nulla H 0 : p = p contro le usuali alternative come segue: ˆp ˆp z = ( ) ˆp( ˆp) n + n con ˆp = (x +x )/(n +n ). Il test di livello α corrisponde alle seguenti regole di decisione quando H : p p, quando H : p > p, quando H : p < p, Rifiutare H 0 se z > z α Rifiutare H 0 se z > z α Rifiutare H 0 se z < z α Vediamo un esempio: molti anni fa venne condotto uno studio epidemiologico per studiare gli effetti positivi dell uso di aspirina sulla prevenzione degli attacchi cardiaci. Da un insieme di 07 medici volontari vennero formati due gruppi: il gruppo di trattamento e quello di controllo. Gli individui del gruppo di trattamento ricevevano una dose quotidiana di aspirina mentre quelli di controllo un farmaco placebo, cioè identico all aspirina e non contenente alcun principio attivo. Lo studio venne condotto per un periodo di 5 anni osservando il numero di decessi per infarto. Si ottennero i seguenti risultati Esito Infartuati Non Infartuati Totali Farmaco Placebo 39 0795 034 Aspirina 39 0898 037 378 693 07 Prendiamo come ˆp la percentuale di persone colpite da infarto nel gruppo di controllo, quindi ˆp = 39/034 = 0.07 e di conseguenza ˆp = 0.06. Come si vede il numero di infartuati è circa il doppio tra chi non subisce il trattamento rispetto a chi ha ricevuto il farmaco. Verifichiamo se la differenza tra ˆp e ˆp è significativa oppure no. Il valore di ˆp lo otteniamo semplicemente: ˆp = 39+39 07 = 0.07 e quindi z = ˆp ˆp ( ) ˆp( ˆp) n + n 0.07 0.06 = 0.07 ( 0.07) ( + ) 034 037 = 0.009 0.0075 = 5.
. VERIFICA DI IPOTESI: PARTE SECONDA 3 Eseguiamo un test ad una coda del tipo H : p > p poiché vogliamo stabilire anche la direzione in cui si manifesta una differenza tra gli effetti della somministrazione dei due farmaci. Se il test rifiuta l ipotesi nulla vuol dire che il non somministrare aspirina aumenta la probabilità di contrarre un infarto. Confrontiamo z = 5. con quantile z α = z 0.99 =.33. Poiché z > z α il test rifiuta l ipotesi nulla e gli sperimentatori concluderanno che vi è un effetto protettivo del principio attivo contenuto nell aspirina rispetto al rischio di infarto cardiaco. Come nota finale resta da dire che la sperimentazione non durò in realtà 5 anni ma venne interrotta per tempo poiché gli sperimentatori non potereno far finta di ignorare che il numero di infartuati del gruppo di controllo era statisticamente più elevato di quello del gruppo di trattamento. Un caso analogo si ha quando si vuole valutare la differenza tra le medie in due campioni anziché tra le proporzioni. La strategia è la sempre la stessa. Indichiamo con x e x le medie di due gruppi di ampiezza n ed n. Si costruisce un test t per verificare l uguaglianza delle medie come segue t = x x n + n (n ) + (n ) n + n con e le varianze campionarie dei due campioni. Questa statistica test t si distribuisce come una t di Student con n + n gradi di libertà. Si procederà ad effettuare un test come nel caso di un qualsiasi test t però si deve tener conto dei differenti gradi di libertà.
4 Test per il confronto tra medie Se x, x, e sono le medie e le varianze campionarie di due campioni di ampiezza n ed n, si può costruire un test t per verificare l ipotesi nulla H 0 : µ = µ contro le usuali alternative come segue: t = x x n + n (n ) + (n ) n + n Il test di livello α corrisponde alle seguenti regole di decisione quando H : µ µ, Rifiutare H 0 se t > t g α quando H : µ > µ, Rifiutare H 0 se t > t g α quando H : µ < µ, Rifiutare H 0 se t < t g α con g = n + n. Esercizio. Su due campioni di autovetture guidate nel primo gruppo da uomini e nel secondo da donne sono stati calcolati i seguenti parametri di spesa annuale: la spesa media per riparazioni e il relativo scostamento medio campionario. Per il primo gruppo di n = 5 uomini si è avuto x = 540 con = 99 e nel secondo gruppo di n = 7 donne si è riscontrato x = 300 con = 38. C è differenza significativa tra i due gruppi di guidatori in termini di spesa? Si tratta di un test t come quello introdotto sopra. Quindi calcoliamo tutte le quantità in gioco: (5 ) 99 + (7 ) 38 = 64 7 + 5 Quindi 540 300 t = =.55 64 5 + 7 Se vogliamo testare l ipotesi alternativa H : µ > µ dobbiamo calcolare il valore soglia t (n +n ) α. Se α = 5% otteniamo t 0 0.95 =.8 e quindi t <.8 e non rifiutiamo l ipotesi nulla in favore del fatto che i guidatori uomini producono danni alle autovetture che sono più costosi, in media, di quelli prodotti dal gruppo delle donne. Esercizio (Grasso è bello). Il peso medio di 50 studenti assidui frequentatori di palestre sportive e campi da gioco è pari a 68. kg con scarto quadratico medio associato pari a.5 kg. Altri 50 studenti pantofolai hanno invece un peso medio di 67.5 kg con
. VERIFICA DI IPOTESI: PARTE SECONDA 5 scarto quadratico medio associato pari a.8 kg. Sottoporre a verifica l ipotesi H 0 : lo sport fa ingrassare. Si tratta di eseguire un test con H 0 : µ = µ contro l alternativa H : µ > µ il campione numero è quello degli sportivi. Calcoliamo quindi la statistica t quindi t = x x n + n (50 ).5 + (50 ).8 t = 50 + 50 68. 67.5 50 = 0.7 0.53 =.3 =.654 il quantile di t 9 8 α per α = 0.05 viene approssimato con z 0.95 =.65. Poiché t =.3 è inferiore al valore soglia.65, il test non consente di rifiutare l ipotesi nulla. Dunque concludiamo che non ci sono elementi per dire che lo sport fa ingrassare.